z 分数、概率、正态分布和二项分布
本章概览
在本章中,我们学习了 z 分数、概率这两个概念,并将他们运用于两类分布:正态分布与二项分布。
- 在引入z分数前,很难将均值、标准差不同的正态分布进行比较。引入z分数后,我们将原分布均转换为标准分布,在标准分布上进行比较。
- 概率是推论统计所必需的概念, 根据样本的信息对总体作出判断。
- 通过z分数,我们可以求解正态分布的百分位数,并通过正态分布表将z值与概率一一对应。
- 二项分布在一定条件下可以近似为正态分布,同样可以利用z值和概率求解。
学习要点
- 学会利用z分数进行原分布与标准分布之间的互相转换
- 学会利用随机取样、回置取样来计算概率,并通过样本概率推测总体分布
- 掌握正态分布的公式与基本特征,利用查表与插值法计算百分位数
- 掌握正态分布中
, , 内的百分比率 - 理解二项分布的公式,并掌握将二项分布近似为正态分布的条件与方法
z 分数
如果我们以均值为一个参照点,在单个的分布中,我们可以利用离差来衡量每个原始分数的位置,但如果我们想比较两个或者多个分布中的原始分数的相对位置,离差就变得无法发挥作用了,所以我们引入了 z 分数。
z 分数由振幅符号和数值两部分组成。符号的正负表示出了 z 分数所对应的原始分数是比均值大还是均值小。而 z 分数的数值表示的是原始分数和均值之间相差几个标准差。
那么我们很容易可以得到z分数的计算公式:
由于这些数据都是可以进行代数运算的,所以在已知原分布的均值、标准差以及z分数情况下,我们也可以逆推出原始分数。
z 分数的另一个用处是将整个分布标准化。在总体或样本的均值和标准差都已知的情况下,我们能将分布中的原始分数都转化为 z 分数,以便于在不同的分布之间进行比较。所得到的新分布就被称为 z 分数分布,也称标准分布,这个过程被称为为标准化。z 分数分布有三个特征:
- z 分数分布的形状和未转换前的原始分布的形状完全相同。
- z 分数分布的均值为 0。
- z 分数分布的标准差为 1。
z 分数还可以代表概率,我们只要知道的 z 分数的区间,就可以计算出相应的落在这个区间的概率。其次,z 分数还可以代表变量间的关系。但如果总体为偏态分布,那么 z 分数只能帮我们比较不同总体内的分数相对均值的距离,而不再能确定分数的位置。
概率
概率 (probability),在心理学统计中,指从某个总体中得到特定的样本的可能性,是联系总体和样本之间的纽带。为了得出正确的概率,在选取个体的过程中必须做到随机取样。
随机取样应满足下述两个条件:
- 总体中的每一个样本都有同样的机会被选择到;
- 如果样本需要选择两个或以上的个体,那么每次做出选择时选出某一个体的概率都应该是相同的。
要满足条件 2 就必须做到回置取样(sampling with replacement),即每次选择之前都应将之前取出的样本放回总体中。
正态分布
正态分布,也被称为高斯分布,在日常生活中十分常见,当样本量足够大时,我们会发现生活中许多变量的分布都近似于正态分布。 正态分布的概率密度函数如下:
正态分布的特点
- 正态分布的形状像一口挂钟,呈对称分布,呈正态分布的数据,其平均数、众数和中数对应同一个数值。
- 极端值相对较少,大部分数据都集中分布在均值附近;
- 正态分布曲线不会与横轴相交。
标准正态分布
不同的正态分布可能有不同的均值和方差,这时画出的正态曲线也不相同。当标准差较大时,正态分布的形态更宽阔,而标准差较小时,正态分布的形状更高狭。
而我们可以通过标准化,将横轴的原始分数用其相应的z分数代替,这样我们就得到了一个均值为 0,标准差为 1 的正态分布,即标准正态分布。这并不会改变原始正态分布的形状。
对于标准正态分布,曲线下任一部分面积占总体面积的比率是固定的,例如,介于均值到一倍标准差之间的区域所占比率是 34.13%(一倍标准差外为 15.87%),介于均值到两倍标准差之间的区域所占比率是 47.72%(两倍标准差外为 2.28%),介于均值到三倍标准差之间的区域所占比率是 49.86%(三倍标准差外为 0.14%)。
二项分布
- 定义:如果在某种特定的情境下,一个随机事件只有两种可能的结果,其概率分布就是一个二项分布,表示为
。 - 例子:投掷硬币得到正面或反面,人的生或死,六面骰子的点数为奇数或偶数,某天下雨还是不下雨。
- 近似:如果n足够大(
且 ),二项分布可以近似为正态分布。
二项分布的概率
二项分布中总是由 A 和 B 两个对立的类目构成。A 的概率为
二项分布表达了与从
二项分布的均值和标准差
二项分布的均值计算公式为:
二项分布的标准差计算公式为:
利用正态分布表求二项分布的概率
此时使用的是连续型分布来估计离散型分布的值,正态分布中的
芷沐沐